使用python对两个Excel表进行数据比较,得到差异和相同的数据行。

该博客介绍如何使用Python的pandas库来比较两个Excel表格中的数据,特别是针对用户信息的差异。通过读取Excel文件,确定基准列,然后逐行比较并记录不一致的数据,最终将不同行导出到CSV文件。此方法适用于版本对比或数据校验场景。
摘要由CSDN通过智能技术生成

问题描述

工作中遇到要对两个Excel表格文件进行数据对比,找出其中不同的行。例如,比较同一用户的信息是否一致,这里的信息可能是不同版本的,但是属性列是一致的,数据内容上可能不同。如下表所示:

Excel 1
姓名性别年龄住址
张三26北京市
Excel 2
姓名性别年龄住址
张三27上海市

解决方法

import pandas as pd

def compare_data(data1, sheetname1, data2, sheetname2):
    # 读取两个表
    dt1 = pd.read_excel(data1, sheet_name=sheetname1)
    dt2 = pd.read_excel(data2, sheet_name=sheetname2)
    # 确定基准列
    dt1_name = dt1['姓名'].values.tolist()
    dt2_name = dt2['姓名'].values.tolist()
    count = 0
    for i in dt1_name:
        if i in dt2_name:
            dt1_row = dt1.loc[dt1['name'] == i]
            dt2_row = dt2.loc[dt2['name'] == i]
            # 可以选择不做比较的列
            dt1_row_ = dt1_row.loc[:, dt1_row.columns.difference(['性别', '住址'])]
            dt2_row_ = dt2_row.loc[:, dt2_row.columns.difference(['性别', '住址'])]
            # 判断两行是否内容一致
            if dt1_row_.equals(dt2_row_):
                pass
            else:
                # count计数
                count += 1
                # 导入要保存的文件名,mode='a'可以控制连续写入csv文件
                dt1_row.to_csv(r'test.csv', index=False, mode='a', header=None)
                dt2_row.to_csv(r'test.csv', index=False, mode='a', header=None)

        else:
            print("匹配失败的姓名:", i)
    # 同理,可以反过来比较一下
    for j in dt2_name:
        if j not in dt1_name:
            print("匹配失败的姓名:", j)
    print("##############################")
    print('测试不同的样本数为:', count)

 

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值